KBO에서 메이저리그로 진출할 선수 예측 (타자편 2)

목차

1. STATIZ 사이트 크롤링

2. 데이터 전처리

3. 분석

출처: 야구공작소

이전 스토리에서 타율, 타점, 안타 등의 기본 지표를 KBO 공식 사이트에서 얻을 수 있었지만 다른 상세 지표들(wOBA, WAR 등)은 제공을 안합니다. ㅠㅠ

그래서! 상세 지표를 제공하는 STATIZ 사이트를 크롤링하여 필요한 데이터를 가져오려고 합니다.


1. STATIZ 사이트 크롤링

위의 데이터는 한국인 메이저리거 선수 중 '타자' 선수들의 데이터이고, 'info_url'은 선수들의 데이터가 있는 사이트 주소를 나타냅니다.


위의 데이터는 2020년 KBO 리그(대한민국 프로 야구 리그) 타율 순으로 상위 10명의 선수들 데이터입니다.

잠깐만요!! 선수들이 11명 있는데요??

아! '김하성' 선수는 2021년 메이저리그로 가게 되어 메이저리거 선수 데이터에 들어있어야 하지만!
2020년까지의 데이터를 통해 정말 메이저리그에 진출할만 하였는지 확인해보기 위해 KBO 데이터에 추가하였습니다.


위의 데이터는 '김하성' 선수의 데이터입니다. column을 보면 안타, 홈런, 도루 이외에도 출루, 장타, OPS, 등 상세 지표까지 나와있는 것을 확인 할 수 있습니다.

"선수별로 저러한 데이터를 통해 분석이 되는구나~" 라고 참고하시면 됩니다!



* 편리성을 위해 아래와 같이 명칭을 정하려고 합니다.
한국인 메이저리거 타자 선수들 -->  메이저리거 선수들

2020년 KBO 타율순으로 상위 10명의 타자 (+김하성 선수)  -->  KBO 상위 선수들

자! 이제 데이터도 가져왔으니 다음 메이저리그로 향할 선수는 누군지 예측하러 가기 전에!!

데이터는 가져왔지만 아직 정제가 되어있지 않습니다. 즉, 데이터에 여러 문제점들이 있는데요.

첫 번째, '타석' 값이 현저히 적은 경우가 있는데 한국프로야구에선 시즌이 마무리된 시점에서 총 경기수의 3.1배에서 소수점을 버린 수 만큼 타석에 들어서야만 타율, 출루율, 장타율 등의 지표가 기록으로 인정됩니다. 쉽게 말해 타석 수가 적으면 공식 기록으로 인정되지 않는다는 말입니다. 지표가 기록되기 위해 채워야 되는 타석을 '규정타석'이라고 하고 규정타석에 해당되지 않는 데이터의 삭제가 필요합니다.   (출처 : 나무위키-규정타석)

두 번째, 규정타석에 해당하지 않는 데이터가 삭제되고 남은 데이터들에 해당하는 '통산 기록'이 갱신되어야 합니다. 위에 '김하성' 선수의 데이터를 보면 마지막 행에 '통산'이라고 자신이 뛴 모든 경기의 평균 기록들이 있는데 이 부분이 갱신되어야 합니다.

2. 데이터 전처리

위의 데이터는 연도별 Rab(규정 타석) 데이터입니다. 해당 연도에 Rab(규정 타석)값보다 타석 수가 적으면 그 데이터는 제거되야 합니다.
위의 데이터가 수정된 '김하성' 선수의 데이터입니다.

'타석' 값이 어느정도 큰 것을 볼 수 있고 통산 기록이 바뀐 것을 알 수 있습니다.

그리고 마지막 행에 '경기당' 이라는 단어를 보실 수 있는데 지표들을 전체 경기로 나눈 데이터들이 들어있습니다. 즉, '한 경기당 안타를 얼마나 쳤는지? 도루를 얼마나 성공했는지?' 를 나타낸다고 보시면 됩니다.
이제 분석에 필요한 KBO 상위 선수들의 데이터와 메이저리거 평균 데이터를 가져왔는데...

분산형 그래프를 그려 비교하려 하려던 찰나! wRC+의 값이 다른 지표들에 비해 확연히 큰게 발견되었습니다.

'정규화'를 통해 값의 크기를 맞추고자 합니다.

정규화 방법에는 여러가지가 있지만 '최소 최대 정규화'를 적용하고자 합니다.

'최소 최대 정규화'는 최솟값을 0으로 최댓값을 1로 나머지 값들을 0과 1사이의 값으로 변환하는 것을 말합니다.

(예시 -> '타율' 지표에서 값이 제일 작은 김하성 선수의 값은 0으로 값이 제일 큰 페르난데스 선수의 값을 1로 두고 나머지 값들을 0에서 1사이로 분포한다)
'최소 최대 정규화'를 적용후 값의 스케일이 통일되었으니 분산형 그래프를 그려보겠습니다!


KBO 상위 선수들에 대한 분산형 그래프를 메이저리거 선수들과 비교하여 그려보았는데 '최형우' 선수는 모든 지표에서 메이저리거 선수들 보다 우세했지만 '허경민' 선수의 경우 지표 대부분 값이 0이어서(정규화가 적용되서) 하나의 점으로 나타났습니다.

하지만 특이한 점이 보이는데, 이번에 메이저리그로 진출한 '김하성'선수의 그래프가 WAR지표 빼고는 모두 메이저리거 선수들보다 낮다는 것!

위의 질문에 대한 답은 잠시 미뤄두고 각 세부 지표가 무엇을 의미하는지 먼저 알아보려 합니다.

장타율(SLG) : 타자가 타격이후 몇 루까지 진루가 가능한지에 대한 기대 수치
(예를 들어 A선수의 타율이 0.500 이면 이것은 50%의 확률로 안타를 친다는 것이지만, 장타율이 0.500이면 2루타 이상을 칠 확률이 50%가 아니라 한 번 타석에 들어섰을때 0.5루의 진루를 기대 할 수 있다는 개념!)

출루율(OBP) : 베이스에 살아서 나갈 '확률'을 의미
타석에서 안타, 몸에 맞는 볼, 볼넷 등으로 1루 이상 살아나갈 확률을 의미!
(에러, 야수선택, 희생 플라이로 살아서 나가는 경우는 해당되지 않는다!)

장타율+출루율(OPS) : 장타율과 출루율의 합으로 타자들의 '타격 퍼포먼스'를 측정하는 지표

WAR(대체선수 대비 승리기여도) : 다른 선수(대체 가능한 선수)에 비해 이 선수를 기용함으로써 팀에 몇 승을 더 안겨줄 수 있는지를 나타내는 지표
즉 타자는 타격만 하는 것이 아니라 수비와 주루를 모두 해야 하는데 WAR은 타격(공격), 수비, 주루 모두를 반영하여 실질적으로 팀에 몇 승을 기여하는지 나타내는 지표!

wOBA(가중출루율) : 타자의 생산력을 측정하는데 사용되는 지표
타자의 퍼포먼스를 '출루율' 스케일에 맞춰 나타내므로 수비, 주루 등의 요소는 고려되지 않고 오로지 '타격 퍼포먼스'만을 측정

wRC+(득점 생산력을 계산하기 위한 지표) : wOBA를 바탕으로 타자의 생산력을 측정하는데 사용되는 지표

위의 지표들 말고도 정말 다양한 지표들이 존재하지만 저 지표들로 메이저리그로 진출할 선수를 예측해보기로 결정한 이유는 타자의 핵심은 타격(공격) 부분이라고 생각했기 때문입니다.

타격 못지 않게 주루, 수비가 받쳐주지 않으면 오히려 팀에 손해를 끼칠 수 있다는 것! 즉, 실질적으로 팀의 승리에 얼마나 기여하는지를 나타내는 지표를 봐야 숨겨진 타자의 능력을 알아볼 수 있습니다!

이러한 점에서 WAR지표가 더 폭넓게 타자의 능력을 나타낸다는 것을 알 수 있습니다.

이제 이러한 정보를 가지고 분산형 그래프를 다시 보면 다른 선수들에 비해 '김하성' 선수의 WAR지표가 메이저리거 선수들 평균 WAR지표와 값이 거의 비슷한 것을 알 수 있습니다.

이제 아까의 질문에 대한 답이 해결되었습니다!! 이제 WAR 지표를 이용해 KBO 상위 선수들을 분석해보려고 합니다.



출처: 야구공작소, MLBNATION

WAR 크기가 큰 순서대로 막대 그래프를 그려보았더니 메이저리거 선수들의 평균이 제일 높았고 그뒤로 김하성, 양의지, 최형우, 김현수 선수 등이 뒤를 이었습니다.

그렇다면 양의지 선수가 그 다음에 메이저리그로 진출할 강력한 후보일까요?

타자의 타격, 수비, 주루를 종합하여 나타내는 WAR 지표만을 보면 양의지 선수가 다음에 메이저리그에 진출 할 가능성이 제일 큰 것은 맞습니다. 하지만! WAR 지표에 큰 영향을 주는 '타격(공격)' 지표들도 추가하여 메이저리그 선수를 예측해 보려고 합니다.

즉, 전반적인 타자 능력(WAR)을 기반으로 타격(공격)에 대한 분석이 더해진다면 메이저리그 진출에 더 경쟁력 있는 타자가 나올 수 있기 때문입니다! 이제 WAR과 상관관계가 높은 타격 지표들을 찾아보겠습니다!


메이저리거 선수들의 데이터에서 WAR과 다른 지표들간의 상관관계를 보기 위한 히트맵을 그려보았습니다.

상관관계가 높을수록 붉은 색으로 나타나는데, 이 중에서 상관계수 값이 0.7 이상(강한 양적 상관관계)인 지표들을 추려보니
'득점, 홈런, 루타, 타점, 볼넷, 출루율, 장타율, OPS, wOBA, wRC+' 지표들 이었습니다.


WAR지표와의 상관계수 값이 높은 '득점, 홈런, 루타, 타점, 볼넷, 출루율, 장타율, OPS, wOBA, wRC+' 값들에 대한 산점도를 그려보니 y=x 형태의 그래프가 많이 보입니다. 이 계수들 끼리도 서로 상관관계가 높다는 것을 알 수 있습니다!

이제 이 지표들도 포함시켜 분석하고자 합니다.


WAR지표와의 상관계수 값이 높은 지표들을 정규화한 뒤 선수별로 나타내었습니다.

지표별로 가산점을 매겨 타격(공격)능력이 우수한 타자를 찾아 보려합니다.

(예시 - 득점에 대해 선수들을 내림차순으로 정렬한뒤 1등에게는 9점 꼴등에게는 0점을 부여, 이 공식을 모든 지표에 적용)


WAR 크기 순으로 상위 5명 중에서 나이가 많은 '최형우' 선수와 이미 메이저리그에 진출한 경험이 있는 '김현수' 선수를 제외하면 '양의지, 나성범, 페르난데스' 선수가 남습니다.

양의지 선수는 WAR지표가 가장 높지만 타격(공격) 능력이 나성범, 페르난데스 선수에 비해 많이 부족하다는 것을 알 수 있습니다.

나성범 선수를 보면 WAR 값이 양의지 선수보다는 조금 낮지만 타격(공격) 능력이 양의지 선수와 페르난데스 선수보다 높은 것이 보입니다.

즉, WAR과 WAR와 상관관계가 높은 타격(공격) 지표를 통해 '나성범' 선수가 다음 메이저리그 진출에 가능성이 제일 높다고 생각합니다!
2021년 1월 10일에 나성범 선수의 메이저리그 진출이 무산되었다는 뉴스기사가 전해졌습니다 ㅠㅠ

비록 나성범 선수의 메이저리그 진출 예측은 실패하였지만, 메이저리그에 도전할 수 있는 능력이 되었다는 것을 데이터를 통해 확인할 수 있었습니다!


출처: 뉴스터치-나성범 메이저리그(MLB) 진출 무산